草庐IT

HTML 常用标签 tag

全部标签

html - 使用 Symfony DOM Crawler 从 HTML 标签中提取文本值的最有效/最好的方法是什么?

给定以下HTML代码片段:largesize我正在寻找使用Symfony的Crawler提取字符串“large”的最佳方法。$crawler=newCrawler($html);在这里我可以使用$crawler->html()然后应用正则表达式搜索。有更好的解决方案吗?或者你会怎么做? 最佳答案 我刚刚找到了一个对我来说最干净的解决方案:$crawler=newCrawler($html);$result=$crawler->filterXPath('//text()')->text();

java - Jsoup.clean() 未关闭并打开标签

以下代码替换此文本:与:StringremoveDisallowedTags(StringtextToEscape){Whitelistwhitelist=Whitelist.none();whitelist.addTags(newString[]{"b","br","font"});Stringsafe=Jsoup.clean(textToEscape,whitelist);returnsafe;}为什么? 最佳答案 Jsoup.clean()默认情况下将文档处理为HTML,而在HTML中没有结束标签是允许的。也是如此。.您必须将

html - 如何在 XPath 中使用变量?

不工作:Setcheckbox=page.FindChildByXPath("//div[@class='dojoxGridContent']//div[@role='presentation']//div//table//tbody//td//img[@onclick='ChangeCheckbox('"+i+"');']")Setcheckbox=page.FindChildByXPath("//div[@class='dojoxGridContent']//div[@role='presentation']//div//table//tbody//td//img[@onclick

html - 如何使用 XPath 选择非空段落?

我要抓取的网页具有相似的结构。每个都有一个段落是一个问题和一个段落是一个答案。我想抓取每个问题和答案并将它们存储在两个项目中问题是在某些页面上,问题和答案分别是//xxx/p[1]和//xxx/p[2],但在其他页面上,//xxx/p[1]是一个没有任何文本的空段落,用作额外的空间。对于这些页面,//xxx/p[1]不会给我想要的东西。那么有没有XPath表达式可以选中一个节点下的非空段落呢? 最佳答案 如果根本没有文本,你可以使用//p[.//text()]选择带有文本的段落。如果“空”段落包含空格(例如换行符),则必须先规范化空

html - OR'ing XPaths 的简写(相同查询但多个标记类型)?

包含给定字符串的职位列表可能以开头,,或(通常)。我可以使用|逻辑或这些,以便我的XPath将检测所有情况://h2[contains(.,'ProjectManager')]|//h3[contains(.,'ProjectManager')]|//p[contains(.,'ProjectManager')]我们这里有速记吗? 最佳答案 您可以使用*和name()来检查元素的名称://*[name()='h2'orname()='h3'orname()='p'][contains(.,'ProjectManager')]或者,正

C++/Qt QDomDocument : iterate over all XML Tags

我的问题是,我有一个大型XML样式的文件,表示为QDomDocument,我需要访问XML中多个位置的某些标签我的XML看起来像这样Mat_110GMat_215k我需要访问所有出现的“SizeMod”和“Size”。问题是文件的布局将来可能会定期更改,我希望我的代码适用于该文件的所有版本。目前,我只是使用多个for循环遍历所有子节点,直到达到所需的深度,然后使用if语句检查我是否在正确的节点。但这似乎是一种糟糕的方式。 最佳答案 正如@hank评论的那样,您应该使用QDomDocument::elementsByTagName(c

Python3 XML 获取标签之间的文本

我在Python3中有以下代码。我正在使用importxml.etree.ElementTreeasET用于XML解析。webScraper从网站上抓取文本,但在该网站上,之间有文本标记,但程序返回None。我可以看到该程序找到了所有标签,但应该打印标签结果的地方只说无。result=webScrapper.scrappPart("http://www.dn.se/rss/senaste-nytt/","body")root=ET.fromstring(result)foritemsinroot.findall('.//item'):link=items.find('link')pri

php - Notepad++ 删除里面有特定文本的标签

我有一个包含产品的大型XML文件。我正在尝试删除所有缺货的产品。文件大小超过20MB。bla150$yesblabla260$nobla...是否可以使用Notepad++的正则表达式删除它们,还是应该使用simpleXML(PHP)或类似的东西?我的基本PHP代码:$url='input/products.xml';$xml=newSimpleXMLElement(file_get_contents($url));foreach($xml->product->children()as$product){//findingoutofstockproductsanddeletingthe

r - 在 R 中查找 html 表名并抓取

我正在尝试从包含多个表格的网页中抓取表格。我想从https://www.census.gov/geo/reference/ansi_statetables.html获取“美国和哥伦比亚特区的FIPS代码”表.我认为XML::readHTMLTable()是正确的方法,但是当我尝试以下操作时出现错误:url="https://www.census.gov/geo/reference/ansi_statetables.html"readHTMLTable(url,header=T,stringsAsFactors=F)namedlist()Warningmessage:XMLcontent

html - 用于选择另一个元素附近(之前和之后)的标签的 XPath?

可以用XPath选择h3元素前后的所有br标签吗?这只选择第一个br标签://h3/following-sibling::*[1][name()='br']这是一个代码片段,我想选择h3标签之前的2个br标签和之后的2个br标签:22111Hamburg(U-undBusbahnhofBillstedt)WirtreffenunsumErfahrungenauszutauschen... 最佳答案 注意事项:你可能不是指全部h3元素而是一个特别h3元素。[1]导致仅选择下一个sibling。而不是*[name()='br'],使用b